光度立体声是使用在不同照明下捕获的对象的图像恢复3D表面正态的问题,在计算机视觉研究中具有极大的兴趣和重要性。尽管现有的传统和深度学习方法取得了成功,但由于:(i)三个或更多不同的照明图像的要求仍然具有挑战性精确的3D地面真相表面正常和已知的照明信息用于训练。在这项工作中,我们尝试使用仅两个不同照明的图像(称为PS2问题)来解决一个未经探索的光度立体声问题。这是单个基于图像的重建方法(例如Shape(SFS)的形状)和传统的光度立体声(PS)之间的中间情况,该方法需要三个或更多图像。我们提出了一个基于反向渲染的深度学习框架,称为DEEPPS2,该框架共同执行表面正常,反照率,照明估计和图像重新估算,并以完全自我监督的方式重新保留,而无需地面真相数据。我们演示了与图像重建结合结合的图像重新构造如何在自我监督的设置中增强照明估计。
translated by 谷歌翻译
在本文中,我们介绍了一种快速运动脱棕色条件的生成对抗网络(FMD-CGAN),其有助于单个图像的盲运动去纹理。 FMD-CGAN在去修改图像后提供令人印象深刻的结构相似性和视觉外观。与其他深度神经网络架构一样,GAN也遭受大型模型大小(参数)和计算。在诸如移动设备和机器人等资源约束设备上部署模型并不容易。借助MobileNet基于MobileNet的架构,包括深度可分离卷积,我们降低了模型大小和推理时间,而不会丢失图像的质量。更具体地说,我们将模型大小与最近的竞争对手相比将3-60倍。由此产生的压缩去掩盖CGAN比其最接近的竞争对手更快,甚至定性和定量结果优于各种最近提出的最先进的盲运动去误紧模型。我们还可以使用我们的模型进行实时映像解擦干任务。标准数据集的当前实验显示了该方法的有效性。
translated by 谷歌翻译
高动态范围(HDR)视频提供比标准低动态范围(LDR)视频更具视觉上的体验。尽管HDR成像具有重要进展,但仍有一个具有挑战性的任务,可以使用传统的现成摄像头捕获高质量的HDR视频。现有方法完全依赖于在相邻的LDR序列之间使用致密光流来重建HDR帧。然而,当用嘈杂的框架应用于交替的曝光时,它们会导致颜色和暴露的曝光不一致。在本文中,我们提出了一种从LDR序列与交替曝光的LDR序列的HDR视频重建的端到端GAN框架。我们首先从Noisy LDR视频中提取清洁LDR帧,并具有在自我监督设置中培训的去噪网络的交替曝光。然后,我们将相邻的交流帧与参考帧对齐,然后在完全的对手设置中重建高质量的HDR帧。为了进一步提高所产生帧的鲁棒性和质量,我们在培训过程中将时间稳定性的正则化术语与成本函数的内容和风格的损耗一起融合。实验结果表明,我们的框架实现了最先进的性能,并通过现有方法生成视频的优质HDR帧。
translated by 谷歌翻译
点云是代表和存储3D几何数据的广泛使用的技术之一。在过去,已经提出了几种用于处理点云的方法。诸如PointNet和FoldingNet之类的方法已显示出3D形状分类和分割等任务的有希望的结果。这项工作提出了一个树结构化的自动编码器框架,以使用图形卷积利用层次信息来生成点云的强大嵌入。我们执行多个实验,以评估提出的编码器体系结构生成的嵌入质量,并可视化T-SNE映射,以突出显示其区分不同对象类的能力。我们进一步证明了所提出的框架在以下应用程序中的适用性:3D点云完成和基于单图的3D重建。
translated by 谷歌翻译
手写文档映像二值化由于书面内容和复杂的背景属性,如页面样式,纸张质量,污渍,阴影梯度和非均匀照明等复杂背景属性而挑战。虽然传统的阈值方法没有有效地推广在这种具有挑战性的真实情景中,但是在提供足够的训练数据时,基于深度的基于学习的方法表现得相对较好。但是,现有数据集的大小和多样性有限。这项工作提出了LS-HDIB - 一个大规模的手写文件映像二值化数据集,其中包含跨越众多真实情景的百万个文档图像。此外,我们介绍了一种新颖的技术,它使用自适应阈值和无缝克隆方法的组合来创建数据集,以准确的基础事实。通过广泛的定量和定性评估超过八种不同的基于深度学习的模型,我们在LS-HDIB数据集上培训并在看不见的图像上进行测试时,我们展示了这些模型的性能的增强。
translated by 谷歌翻译
Text-to-text generation models have increasingly become the go-to solution for a wide variety of sequence labeling tasks (e.g., entity extraction and dialog slot filling). While most research has focused on the labeling accuracy, a key aspect -- of vital practical importance -- has slipped through the cracks: understanding model confidence. More specifically, we lack a principled understanding of how to reliably gauge the confidence of a model in its predictions for each labeled span. This paper aims to provide some empirical insights on estimating model confidence for generative sequence labeling. Most notably, we find that simply using the decoder's output probabilities is not the best in realizing well-calibrated confidence estimates. As verified over six public datasets of different tasks, we show that our proposed approach -- which leverages statistics from top-$k$ predictions by a beam search -- significantly reduces calibration errors of the predictions of a generative sequence labeling model.
translated by 谷歌翻译
Recently, Robey et al. propose a notion of probabilistic robustness, which, at a high-level, requires a classifier to be robust to most but not all perturbations. They show that for certain hypothesis classes where proper learning under worst-case robustness is \textit{not} possible, proper learning under probabilistic robustness \textit{is} possible with sample complexity exponentially smaller than in the worst-case robustness setting. This motivates the question of whether proper learning under probabilistic robustness is always possible. In this paper, we show that this is \textit{not} the case. We exhibit examples of hypothesis classes $\mathcal{H}$ with finite VC dimension that are \textit{not} probabilistically robustly PAC learnable with \textit{any} proper learning rule. However, if we compare the output of the learner to the best hypothesis for a slightly \textit{stronger} level of probabilistic robustness, we show that not only is proper learning \textit{always} possible, but it is possible via empirical risk minimization.
translated by 谷歌翻译
顺序标记是一项基本的NLP任务,构成了许多应用程序的骨干。对SEQ2SEQ模型的监督学习(如T5)在这些问题上取得了巨大的成功。但是,这些模型的培训目标与我们在实际应用中关心的指标和Desiderata之间存在显着脱节。例如,实用的序列标记应用程序可能需要优化某些Precision-Recall折衷(TOP-K预测),这与最大化金标记序列的可能性的标准目标完全不同。因此,为了弥合这一差距,我们提出了Groot,这是一个简单而有效的框架,用于生成文本序列的奖励优化。 Groot通过训练生成的顺序标记模型来工作,以将解码器输出分布与(Black-Box)奖励函数的输出分布相匹配。使用迭代培训制度,我们首先生成预测候选者,然后纠正其中的错误,最后对比这些候选者(基于其奖励价值)。正如通过四个公共基准测试的广泛实验所证明的那样,Groot显着改善了所有奖励指标。此外,Groot还导致了整体解码器分布的改善,这是由顶级$ K $候选者的质量提高所证明的。
translated by 谷歌翻译
检索演示的生成模型比独立语言模型提供了许多好处:除了对给定查询的文字答案外,它们还提供了从可更新知识库中检索到的出处项目。但是,它们也是更复杂的系统,需要处理长输入。在这项工作中,我们介绍了FID Light,以强烈提高最先进的检索功能模型的效率,同时保持相同的有效性。我们的FID光模型将信息流从编码器(分别编码段落)限制为解码器(使用串联编码表示)。此外,我们通过文本源指针通过重新排列的功能调整FID光,以提高排名最高的出处精度。我们对七个知识密集任务(KILT)的各种实验表明,FID光线始终改善了查询潜伏期和有效性之间的帕累托前沿。带有源指向的FID光设置为六个苏格兰短裙任务的新最新结果,用于合并文本生成和出处检索评估,同时保持合理的效率。
translated by 谷歌翻译
我们通过实验验证一个实时机器学习框架,能够控制拉曼放大器的泵功率值以在二维(2D)中塑造信号功率演变:频率和光纤距离。在我们的设置中,优化了四个一阶反向传输泵的功率值,以实现所需的2D功率配置文件。泵功率优化框架包括一个卷积神经网络(CNN),然后是差分进化(DE)技术,在线应用于放大器设置,以自动实现目标2D功率配置文件。可实现的2D配置文件的结果表明,该框架能够确保获得的最大绝对误差(MAE)(<0.5 dB)与获得的目标2D配置文件之间。此外,该框架在多目标设计方案中进行了测试,该方案的目标是在跨度结束时达到固定增益水平的2D配置文件,共同在整个光纤长度上进行最小的光谱游览。在这种情况下,实验结果断言,对于目标扁平增益水平的2D轮廓,当设置在泵功率值中不受物理限制时,DE获得的最大增益偏差小于1 dB。模拟结果还证明,有足够的泵功率可用,可以实现更高的目标增益水平的更好的增益偏差(小于0.6 dB)。
translated by 谷歌翻译